查看原文
其他

英语学术论文摘要语步结构自动识别模型的构建

王立非 刘霞 语言科学 2021-09-19


提要本文以 1993-2014 年期间 SSCI期刊《 应用语言学》 发表的学术论文摘要为语料,对英文摘要语步结构标注后,利用语料库和自然语言处理方法,提取有效语步预测特征,通过语步结构类别训练学习分类器(条件随机场),获得摘要语步结构自动识别模型。本研究突破了长久以来依赖于人工的语步分析法,对语类研究以及英语学术写作具有借鉴意义和实用价值。

关键词语类分析;语步结构;自动识别;英文摘要

1. 引言

      摘要语步的自动识别模型本质上是一个文本自动分类模型。上个世纪九十年代以来,随着机器学习的兴起,文本自动分类成为信息科学中的一个重要目标。基于文本分类的研究成果,出现了三类摘要语步自动识别模型:第一类是基于同频统计构建的词袋模型,能穷尽词项特征,但不对特征进行筛选和归类,导致特征稀疏;第二类是基于规则提取语言学特征构建的模型,避免了特征稀疏的问题,但特征提取不全面不系统;第三类是结合词袋和语境特征构建的模型,特征识别效果很好,但只能针对结构规整的摘要,对结构不规则的摘要识别效果欠佳。

      针对这种情况,本研究以现有的语步结构自动识别模型为出发点,结合语言学理论和语料库的方法,从形式、意义、语境三个维度提取能够有效预测语步的语言特征,试图构建运行效果更好的学术论文摘要语步结构的自动识别模型,为语类理论和实证研究走向更多学科和研究领域提供了可能,也对今后 ESP领域其他语类语步结构的自动识别开拓了道路。

2.国内外语类研究的发展现状        自Swales(1981)首次提出语步分析法后,从1995年起,相关论文不断涌现,至今依然是学术语篇的研究热点(徐昉,2013)。最近三年,语类研究出现了新的研究热点:①从学术语篇等常见语类转向新的语类,如购物网站的广告、企业年报等;②将语类理论应用到计算机辅助英语写作软件的开发中,如Type Your Own  Script和 The Research Writing Tool,都是先手工标注语步结构,再就语篇组织结构和语言使用方面自动给出反馈和评估;③利用语类理论进一步观察语篇内部的语言特征, 探寻语料库研究结果背后的原因,如Adle(2014),肖忠华、曹雁(2014)。      然而,无论是新的语类,还是新的应用,语步分析都无一例外地受到了人工标注语步类别的局限,这个过程费时费力,很难进行大规模的语篇分析,其结果不易复制,限制了语步分析法与其他理论和方法的结合, 限制了语类研究的发展等。3.现有摘要语步结构自动识别模型      根据提取特征的侧重点不同,现有的摘要结构自动识别模型大概可以分为三大类。      第一类为同袋模型,以文本中出现的所有同构成一个文本一词项矩阵,再根据同项在文本中的频率建立概率模型。Anthony(2002 ) 构建了第一个摘要语步自动识别模型。该模型选择了朴素贝叶斯算法,从 100 篇摘要中自动提取了1-5词的词串为特征,以信息增益进行特征降维处理,并基于该模型编写了摘要语步结构自动识别器AntMover,对20 篇测试语料的平均准确率为 68%,各语步的准确率在17%-92%之间,识别度不高的主要原因是特征稀疏,特征降维仍无法避免提取的特征中出现许多在所有语步都普遍出现的词项。另外,朴素贝叶斯算法无法直接计算序列概率,不考虑摘要中各语步之间的顺序关系。      第二类模型也采用词袋的方法,但更加关注语步之间的序列关系。该类模型的应用价值在于从大量医学论文摘要中挖掘出最新的医学研究成果。医学论文摘要多属于结构化摘要,有明确的标题标明语句的功能,如Purpose,Method,Result等,因此序列特征在模型识别中具有决定性作用,识别效果普遍达到了90%-98.17%。人文社会科学论文不如医学摘要的结构整齐归一,语步的序列关系对摘要语步结构的预测力不强,因此需要提取语言学特征予以补充。       第三类为基于语言学特征的模型,有选择性地提取语言特征,采取两类方法:一类完全自上而下基于规则提取特征;另一类则自下而上提取搭配特征,最后结合直觉分类建模。后者识别效果更好。本研究提取的特征参考Teufel&Moens(2002)提取的16个特征,包括:语句的位置、语句长度、句法特征、引用格式、历史语步类别以及元话语特征。元话语特征包括程式化表达(Formulaic)、施事(Agent)、行为(Action),施事和行为分别是主语和谓语动词,程式化表达指除了主语和谓语之外的其他各语步常用的表达,如In this paper,However等,再结合主观分类构建的模型识别效果最好。

4.研究方法与语料

4.1 语料与标注

      本研究的语料选自Web of Science 数据库中收录的《应用语言学》期刊自1993-2014年刊登的除书评、会议论文和编者语之外的论文摘要,共计440篇,总形符为75964。本研究的语料包括信息型和说明型摘要,信息型摘要的语步结构结合了Dos  Santo(1996:33)和Hyland(2004:15)的五步结构;由于目前没有说明型摘要语步结构的文献,我们参考了Yang&Allison (2004)提出的说明型学术论文全文的三语步结构。

      学术语类主流研究方法是语步分析法,这也是"至今ESP领域最有影响力的语言使用分析方法"。本研究语料的人工标注严格采用了语步分析法的步骤。语步分析法的关键在于语步的最小分析单位识别和语步功能识别。对最小标注单位的争议主要是颗粒度问题,本研究采用以句子为最小单位,至于每个句子对应的语步类别,已有研究有的基于现有的语步结构自上而下地标注,有的则不带有任何已有的语步结构,自下而上地标注。本研究的标注持续了一年,经历了标注方案自上而下到自下而上,再到二者相结合的过程,最小标注单位从句子到小句再到句子的改变,由本研究者与另一位标注员共同完成,经过检验,两位标注者的Kappa系数=.785(N=2834,k=2),该系数相对于二者独立标注的语料约有93.375%一致。

      本研究的六语步结构标注方案如下:

      (1)研究背景(B):回顾已有文献,介绍本研究的研究背景,解释该研究传统的重要性,有时会指出研究空白。

      (2)研究目的(P):陈述研究目的,提出研究问题或研究假设。

      (3)研究方法(M):利用什么方法来解决提出的研究问题,包括使用的数据、受试、实验材料、量具、研究中的变量、数据采集和数据分析的过程等所有具体的研究步骤。

      (4)论证(A):专指说明型摘要的论证部分,包括提出论点,引用别人的论点进行论证,有时没有明显的论证,可能只是描述存在的问题,利用什么模型和理论依据来讨论问题,最后提出解决方法。

      (5)结果(R):实证研究中的研究结果和发现。

      (6)结论(C):总结研究结果,解释和讨论研究结果,并作出延伸和推断,提出建议或建构模型,也包括研究意义、研究不足。

       为了尽可能保证标注的一致性,本研究以人工标注的语步结构为标准,再用模型预测的语步类别与人工标注的类别做对比。

4.2研究步骤

      本研究总结出所有类型的摘要的语步结构,并系统描写出每一类语步对应的语言特征。具体的研究流程包括如下七个主要步骤(见图1):

    (1)语料预处理:对获得的语料进行预处理,得到一句一行的干净生语料。主要使用的研究工具有PowerGrep、EditPad Pro、Sentence Segmenter。

    (2)手工标注:借助工具BFSU Qualitative Coder(许家金、贾云龙,2011),人工标注生语料中每一句的语步类别、获得标注语料。

    (3)词性赋码和句法标注:利用CLAWS7和Standford Parser,对标注语料进行词性赋码和句法分析。

     (4)训练集和验证集的形成:利用文件随机分组程序将标注好的赋码随机分为训练集和验证集,训练集用于建模,验证集用于验证模型的性能。

   (5)特征提取:利用Keyword+(梁茂成,2010)和WxPatCount(梁茂成,2015)提取特征在语句中的频数,将自然语言形式的语料转换为机器能够识别的向量形式。

      (6)模型的构建:用训练集训练分类器,得到摘要的自动识别模型。本研究借助机器学习软件Weka和CRF++两个工具,分别使用了朴素贝叶斯和条件随机场来建模,最后选出最适合的分类器。

      (7)模型的验证:用构建的模型预测验证集的类标签,并与手工标注的类标签对比,得到评价模型性能的三个指标:准确率、召回率和F值。模型的验证依然利用机器学习软件Weka和CRF++,以及基于C#自主开发的程序实现。

      最后三步是一个迭代反复的过程,如果第六步得到准确率和召回率不够理想,需要根据结构寻找原因,然后回到第5步,调整或补充特征,再训练分类器,直到得到理想的结果。

4.3特征提取

      本研究提取三类特征:①已有研究使用的特征,如句子长度、引用格式、语句在摘要中的位置、语步群、相邻语步;②在已有研究提取的形式特征基础上,利用语料库的方法重新提取的意义单位,如谓语分类、谓语的屈折变化、主语分类及其搭配;③根据语类研究理论增加新的特征,如连接词、显性评价词、主谓搭配。为了检验每一个特征对语步的预测强度,本研究采用了两种方式:一种是每次去除一个特征,用余下的所有特征建模,观察有无该特征时模型的识别效果;另一种是单独利用每个特征建模,观察单个特征对语步的识别度。检验发现,提取的11个特征中,只有句子长度特征被去除后模型的识别度升高了1.5%,因此我们在之后建模的模型中统一去除了该特征。


5.结果与讨论

5.1 学术摘要语步结构的有效预测特征

      除去句子长度特征后,余下十个特征都被证明是预测语步类别的有效特征。单独检验每一个特征的预测力后发现(见表1),预测力最强的四个特征分别是谓语分类(F=0.464)、主语分类及其搭配(F=0.447)、谓语的屈折变化(F=0.421)和主谓搭配特征(F=0.413),其次是语句的位置(F=0.299)、显性评价词(F=0.246)、连接词(F=0.241),预测力最弱的是引用格式特征(F=0.09)。根据每一个特征提取方法的不同,我们将他们分为了形式特征、意义特征和语境特征三个维度,用这三个维度的特征分别建模后发现,意义特征的识别度最高(F=0.609),形式特征(F=0.317)最弱,语境特征(F=0.428)介于二者之间。

      每次去除一个特征建模来检验每个特征的预测力后发现(见表1),去除任意一个特征,模型的识别效果都有所下降。其中,下降最多的是主语分类及搭配(F=0.673)、谓语分类(F=0.7385),其次是显性评价词(F=0.7487)、主谓搭配(F=0.7487)、连接词(F=0.7522)、最后是语步群(F=0.7562)、位置(F=0.7628)、引用格式(F=0.7641)。第一类下降最多的特征刚好是本研究在已有模型提取的形式特征基础上,采用新的方法和分类体系,提取的意义特征。由于我们不清楚已有模型对特征的分类方式,无法对比我们的分类与他们的有多大差异,但经检验,以语料库的方法提取的意义特征比传统方法提取的形式特征对各语步的平均识别度提高了3.32%。第二类下降较多的特征属于本研究新加入的已有模型没有的特征,结果也验证了他们对提升模型的识别效果均有一定的作用。第三类下降最少的特征与已有模型提取的特征一致,本研究再次验证了他们的有效性。

      本文的研究结果与已有模型存在很大不同,这主要归因于新方法提取的意义特征。意义特征在模型中得到了凸显,语境特征和形式特征在模型中的作用便被弱化。我们提取的时态和语态,即谓语的屈折变化特征,已不再是单纯的通过规则提取的形式特征,而是以传统的形式特征为词项,通过观察语境总结出结构特征,因此,Genoves  et  al(2007)和Teufel&Moens(2002:28)发现屈折变化特征的识别度最差,但在我们的模型中,该特征反而成为了识别效果最好的特征之一。此外,由于意义特征得到了效果最好的特征之一。此外,由于意义特征得到了作用被弱化,所以已有模型(同上)识别效果最好的位置特征和历史语步等语境特征,在我们的模型中不如四个意义特征效果好。

5.2摘要语步结构自动识别模型的构建与优化

      基于上述的十个语步有效预测特征,我们先后构建了初步模型、优化模型和管道模型。初步模型本质上是一个概率模型,它基于所有特征在语句中出现的概率而建成。虽然大部分特征在语步间只是多与少的差异,但仍有一部分具有排他性的特征,即只在某一类语步出现,其他五类都不会出现的特征,这类特征能够百分之百准确地预测语步类别,如果放入模型中与其他特征以相同的方式计算预测概率,反而失去了它本身的重要性,此时就需要将这些排他性特征单独处理,以规则的形式告诉机器,只要排他性特征单独处理,以规则的形式告诉机器,只要优化模型。第三类管道模型是为了对不同类型的摘要分别建模,即在构建语步自动识之前,增加一个摘要类型的分类模型,构成一个包含两层分类任务的管道模型。检验这三类模型的识别效果,都是以人工判断的语步类别为参照,且都经过了十折交叉验证。如表2所示,基于统计构建的初步模型对六类语步的平均识别度F值为0.7726,也就是说机器预测的语步类别中,平均有77.26%类别与人工判断的一致。基于规则和统计构建的优化模型的平均识别度F值为0.7819,平均识别度高于单纯基于统计的初步模型,每一类语步的识别效果也高于其对应的初步模型。管道模型首先将不同类别的摘要进行了分类,经过分类后发现,信息型摘要的语步识别效果最好(F=0.8218),说明型摘要(F=0.6802)和混合型摘要(F=0.609)次之。已有研究构建的模型只能识别信息型摘要,本研究构建的管道模型对信息型摘要的识别度已经远远超过了现有模型中识别效果最好的,比Wu et  al (2006)高了4.5%。

      将能够识别多类型的摘要语步优化模型与现有仅能识别信息型摘要的模型对比发现,优化模型对仅能识别信息型摘要的模型对比发现,优化模型对吾步自动识别模型中排名第一,明显高于完全基于规则提取特征构建的模型和完全基于统计构建的词袋模型,与利用搭配和相邻语步序列构建的模型不相上下。优化模型的平均识别度略高于Wu et  al (2006)(P=0.777)这主要因为优化模型中A语步的识别效果不佳(F=0.662),而他们的模型并不考虑A语步。此外,为了保证可比性,我们用同一批语料分别训练Antmover和优化模型,结果优化模型比Antmover的识别效果高了约23%;最后,我们利用Antmover的特征,优化模型的算法构建了第三个中间模型,中间模型的识别度刚好介于Antmover与优化模型之间,由此证明优化模型的算法和特征都优于Antmover。

       本研究所构建模型的优势体现在特征提取中应用了语言学理论和语料库方法,构建模型时采用了基于规则和基于统计相结合的方法,以及模型的适用性三方面。首先,语言学理论为特征提供了新的分类,补充了新的特征,语料库方法提取的意义单位弥补了单纯的形式特征。由此可见,自然语言处理研究与语言学知识结合可以产生创新成果。其次,在特征的提取以及模型的构建时,采用规则与统计相结合的方法,比只依赖某一种方法的传统做法效果更好。最后,从模型的适用性看,本研究首次实现了识别语言学常见类型论文摘要的模型,也是第一个实现社会科学论文摘要的自动识别模型,对今后ESP领域分析经济、管理、法学等更多语类奠定了基础,为语步分析理论和方法应用于更多学科领域提供了可能。


6.结语

      本研究发现:①采用了基于规则与基于统计相结合的方法,模型的识别效果(F=0.7819)更好,远远超过现有问类自动识别的模型;②本研究提取的形式、意义、语境三维度语步模型特征中,意义维度特征识别度最高(F=0.609),弥补了现有模型意义维度缺失的不足,构建了识别效果更好,能够自动识别常见类型英文摘要语步结构的模型。

      今后,本模型可应用于其他语类其他和其他学科领域,进行跨学科、跨语言的语类对比,基于大量语料系统考察不同语步在不同学科、不同语类的实现方式以及语言特征的不同。可将该模型应用到知识挖掘和ESP辅助教学软件中,帮助学科知识挖掘定位关键信息语步,可为学术写作自动评价和反馈系统提供语步结构识别的模块,能够更准确地对学术写作的语步结构和语言特征给出反馈和评价。

作者简介:

 王立非,北京语言大学高级翻译学院教授、博士生导师。主要研究方向:应用语言学、语料库语言学、商务话语、语言服务等。

本文来源:《外语电化教学》,感谢王立非教授的支持

延伸阅读

语料库语用学研究的国际热点解析

中国语言学史研究的现状和思考

认知语言学与有效教学

国内翻译史研究的几个问题

话语构建的社会认知语言学研究

人工智能翻译与“世界文学”

具身语言涉及的主要科学问题

生物语言学核心问题及其过程哲学基础

关于生态语言学作为一门学科的几个重要问题



语科研究生同学群


语科Y编


欢迎留言并分享至朋友圈

: . Video Mini Program Like ,轻点两下取消赞 Wow ,轻点两下取消在看

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存